통계의 패러다임 전환에 오신 것을 환영합니다. 우리는 단순한 '추세선' 직관을 넘어 엄밀한 분포 기반 프레임워크로 나아가고 있습니다. 여기서는 상관 계수만으로 관계를 정의하는 것이 아니라, 예측 변수 $X$를 변화시킬 때 반응 변수 $Y$의 확률적 행동이 어떤 변화가 있는지로 관계를 정의합니다.
정의 10.1.1: 통계적 연결
$X$와 $Y$ 두 변수는 관련된 만약 어떤 조건부 분포가 $X = x$일 때 $x$가 변함에 따라 변화가 있다면, 관련된 것으로 간주됩니다. 반대로, '관계 없음' 상태는 $X$와 $Y$의 독립성과 수학적으로 동치입니다.
논리적 동치성
$X$와 $Y$ 변수는 모든 $x$ 값에 대해 $f(y|x) = f(y)$인 경우에만 서로 무관합니다. 이는 결합 상대 빈도 함수가 다음과 같이 인수분해될 수 있음을 의미합니다:
$$f(x, y) = f(x)f(y)$$
따라서 관계를 검증하는 것은 본질적으로 독립성을 검증하는 것입니다.
변화의 메커니즘
관계는 조건부 밀도 함수의 어떤 이동(그림 10.1.1 참조)으로 확인됩니다. 포함되는 내용은:
- 평균 이동: $E(Y|X)$의 기대값이 변화합니다(가장 일반적인 초점).
- 분산 이동: $Y$의 분산 또는 불확실성은 $X$에 의존합니다(이분산성).
- 형태 변화: 전체 분포가 변형됩니다(예: 대칭에서 비대칭으로).
설계를 통한 인과성 확보
통계적 관계는 인과성을 시사하지 않습니다. $X$가 인과한다 $Y$를 유발한다고 주장하려면, 혼란 변수를 고려해야 하며 이를 통해 실험 설계를 통해 수행해야 합니다:
- 대조군 처리: 비교를 위한 기본 기준을 제공합니다.
- 플라시보 효과: 무작위 처리를 통해 인식된 개선을 완화합니다.
- 이중 맹검: 사용하여 맹검 실험 (참여자가 모름) 및 이중 맹검 실험 (참여자와 연구자 모두 모름)을 통해 편향을 제거합니다.
- 블로킹: 예시 10.1.7에서 볼 수 있듯이, 예시 10.1.7우리는 블로킹 변수($W$, 예: 토양 비옥도 등)를 사용하여 밀의 종류($X$)와 수확량($Y$) 사이의 관계가 사전 조건에 의해 왜곡되지 않도록 보장합니다.
🎯 핵심 수학적 추정
이러한 관계를 조건부 가능도 함수를 사용하여 추정합니다. 이산 데이터의 빈도 $f_{ij}$에 대해:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$
표준 오차: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$